矩阵刚被发明时是用来解线性方程组的,线性方程组就是一组n元一次方程,形如
⎩⎨⎧a1x+b1y+c1z=d1a2x+b2y+c2z=d2a3x+b3y+c3z=d3
a1...3,b1...3,c1...3为系数,x,y,z为未知数,所以线性方程组也可以表示为Au=d,其中A为⎝⎛a1a2a3b1b2b3c1c2c3⎠⎞
矩阵,也就是该方程组所有系数组成的矩阵,u为未知数矩阵⎝⎛xyz⎠⎞,d为方程值矩阵⎝⎛d1d2d3⎠⎞
初等变换有行变换和列变换,其中每种变换都有三种操作,为倍乘,交换和倍乘加。这六种操作就是化简线性方程组的操作,且这些操作不会改变该方程组的解集,一般来说,我们只使用行变换的操作就行。
对矩阵使用初等变换可以换成阶梯型矩阵和最简型矩阵。
化成阶梯型矩阵的方法就是:
- 从左边列开始,将其中最小的元素所在的行移到第一行,然后使用初等变换将该列的其他元素化为0。
- 再到第二列,也是找除去第一行的最小元素并移动到第二行,将该列除了该行和第一行的其他元素化为0。
- 再到第三列,第四列等直到最后一列或者已经处理到了最后一行,并重复第二步的对应步骤,也就是从左到右,从上到下。
- 最后化成了上三角矩阵。
化成最简型矩阵的方法就是:
- 先化成阶梯型矩阵。
- 然后从右到左,从下到上的先将主对角线的非0元素都化为1,然后将主对角线的非0元素上面的非0元素都化为0。
- 最后化成了三角矩阵。
化成最简型矩阵后,所有主对角线的非0元素对应的列就为主元列,每个主元列对应的未知数就是基本变量,其他列对应的未知数为自由变量。方程组有唯一解等价于该方程组对应的系数矩阵没有自由变量,存在自由变量等价于方程组有多个解。
如果方程组的所有方程右边的值全为0,则为线性齐次方程组,如果线性齐次方程组的解全为0,则称为平凡解,否则称为非平凡解。可以看出,线性齐次方程组的解为平凡解等价于该齐次方程组没有自由变量,解为非平凡解等价于该齐次方程组存在自由变量。
对于n×n方阵A来说,如果该方阵没有自由变量,则其通过初等变换成的最简型矩阵就是n×n单位矩阵I,该初等变换的所有操作形成的矩阵B就是A的逆矩阵,也就是矩阵A的倒数,且A也是B的逆矩阵,也就是
A−1=B,B−1=A,AB=BA=I。
对于可逆矩阵A,(AT)−1AT=AT(AT)−1=I
只有方阵才有行列式,行列式可以判断一个方阵是否可逆,一个方阵A可逆等价于该方阵的行列式值不为0,否则不可逆,可逆矩阵被称为非奇异矩阵,不可逆矩阵被称为奇异矩阵。
对于二阶2×2方阵A=(acbd)来说,可以直接计算套公式detA=ad−bc,A−1=ad−bc1(d−c−ba)计算出该方阵的行列式detA和逆矩阵A−1。
对于其他阶方阵来说,方阵的行列式可由公式detA=(−1)ru11⋯unn得出,其中r为初等变换所用的行/列交换次数,u11⋯unn为其化为阶梯型的主对角线元素(此时初等变换不能使用行/列倍乘操作);逆矩阵A−1可由公式(AI)=(IA−1)推导出,其中A为n×n可逆矩阵,I为n×n单位矩阵。
在几何上,矩阵A=(u1u2)的行列式的值表示的是向量u1,u2这两个向量所围成的面积。
在线代中,列向量就是形如⎝⎛abc⋮n⎠⎞的n×1矩阵,简称向量。
如含有2个元素的向量为(ab),其中a,b为任意实数,所有含有2个元素的向量的集记为R2,这就是一个向量空间,R表示向量中的元素是实数,而指数2表示每个向量包含2个元素。
两个向量相等必须是这两个向量的长度,每个位置对应的元素的值都相等才相等,所以向量是有序元素的集合。
m×n矩阵A=(v1v2v3⋯vn)(其中v1v2v3⋯vn为矩阵A的列向量)对n×1向量x的线性组合b(也就是Ax=b=c1v1+c2v2+c3v3+⋯+cnvn,其中c1,c2,c3,⋯,cn为系数)也为一个n×1向量。
如果矩阵A的各个列的向量中,如果存在一个向量是其他向量的线性组合,则称矩阵A的各个列的向量是线性相关的,否则称矩阵A的各个列的向量是线性无关。
向量空间Rn的某组向量以及这些向量的倍乘向量以及其中任意两个向量的加法向量和零向量的集合被称为Rn的子空间,子空间H中的任意一组线性无关且能生成H的向量{v1,v2,v3,⋯,vp}(其中0<=p<=n)都可以看作为该子空间中的一个基,其中子空间中的每个p×1向量x都可以看作为该子空间中的基的线性组合(也就是x=c1v1+c2v2+c3v3+⋯+cpvp,其中c1,c2,c3,⋯,cp为系数)。仅含零向量的子空间叫做零子空间。一个非零子空间的维度为该子空间基所含向量的数目,零子空间的维度为0,所以向量空间Rn包含向量空间Rp(其中0<=p<=n)。
简单来说,可以将一个Rn的子空间H看作为一个p维空间(其中0<=p<=n),该p维空间中的p×1向量可以有多种坐标系来进行参照,每种坐标系就是子空间H的一个基,基中的每个列向量就代表坐标系中的坐标轴,用于表示方向。子空间H的p×1向量x可以用该子空间上的基唯一线性组合表示(也就是用同子空间的不同的基对向量进行表示时,所有线性组合表示的对应系数是一样的),也就是用该p维空间的坐标系的各个坐标轴的分量之和来唯一表示,比如子空间H上的基是{v1,v2,v3,⋯,vp},则向量x表示为x=c1v1+c2v2+c3v3+⋯+cpvp,其中c1c2c3⋯cp,其中c1,c2,c3,⋯,cp是系数。
一个m×n矩阵A可以用来表示Rm子空间H上的一个基,其中矩阵A中的所有主元列{v1,v2,v3,⋯,vp}构成了该基(其中0<=p<=m),所以该子空间上的向量x可以用Ac=x=c1v1+c2v2+c3v3+⋯+cpvp表示,其中向量c=⎝⎛c1c2c3⋮cp⎠⎞称为x相对于A的坐标向量。
A的秩就是A的列空间的维度,也就是其主元列的数量,A为满秩也就是指A的主元列数量等于其列数。
由此结合线性方程组的相关知识,我们可以得出有关Ax=b(A为m×n系数矩阵,x为n×1解向量,b为m×1值向量)解的结论:
- Ax=b有唯一解等价于矩阵A构成的Rm子空间H的维度为m,且向量b在H上。
- Ax=b有无穷多的解等价于矩阵A构成的Rm子空间H的维度小于m,且向量b在H上。
- Ax=b无解等价于向量b不在矩阵A构成的Rm子空间H上。
在线代中,内积(也叫做点积)定义的是一种使向量空间中的任何向量对于内积操作都支持交换,结合和分配率的运算操作,定义了内积的向量空间叫做内积空间。
标准内积的定义:假设Rn中有两个n×1向量u=⎝⎛u1u2u3⋮un⎠⎞,v=⎝⎛v1v2v3⋮vn⎠⎞,则u⋅v=(u1u2u3⋯un)⎝⎛v1v2v3⋮vn⎠⎞=u1v1+u2v2+u3v3+⋯+unvn。
向量v=⎝⎛v1v2v3⋮vn⎠⎞的长度∣∣v∣∣定义:∣∣v∣∣=v⋅v=v12+v22+v32+⋯+vn2,且∣∣v∣∣2=v⋅v
Rn中向量u,v之间的距离dist(u,v)=∣∣u−v∣∣,表示向量u−v的长度。
如果向量u,v是R2或R3中的向量,则它们之间的夹角θ可以通过公式u⋅v=∣∣u∣∣∣∣v∣∣cosθ来计算。
标准基就是一组由多个0和一个1组成的向量的线性无关集合;正交基就是一组两两之间都正交的向量的线性无关集合;标准正交基(单位正交基)就是一组正交基,且每个基向量的长度为1。
正交基的好处就是用于表示某个向量时,该线性组合表示中的系数可以直接用公式求出,比如正交基{u1,u2,u3,⋯,un}用于表示n×1向量x=c1u1+c2u2+c3u3+⋯+cnun时,系数cj的值为cj=uj⋅ujx⋅uj,其中符号⋅为内积,1<=j<=n。
假设Rn子空间H的维度为n,则该子空间的基可以表示为{v1,v2,v3,⋯,vn},该子空间上的n×1向量x可以表示为x=c1v1+c2v2+c3v3+⋯+cnvn,其中c1,c2,c3,⋯,cn为系数。
对于由基为{s1,s2,s3,⋯,sp}(其中0<=p<=n)的子空间子空间S,n×1向量x在S上的投影可以表示为x^=a1s1+a2s2+a3s3+⋯+ansn,其中a1,a2,a3,⋯,an为系数;如果基{u1,u2,u3,⋯,up}为S的正交基,则n×1向量x在S上的正交投影为x^=a1u1+a2u2+a3u3+⋯+anun,其中a1,a2,a3,⋯,an为系数,且aj=uj⋅ujx⋅uj,其中符号⋅为内积,1<=j<=n。
我们可以使用格拉姆——斯密特方法将任何非正交基转换为正交基,该方法主要利用的原理是公式y=y^+z,其中y^是向量y的正交投影,z是垂直于向量y^的向量。
对于一个方阵U来说,如果该方阵的所有列向量可以构成一个单位正交基,则该方阵U被称为正交矩阵,也就是具有UTU=I的性质,其中I为单位矩阵。所有的正交矩阵都是可逆的,且其所有行向量也可以构成一个单位正交基。
矩阵还可以对向量进行变换,m×n矩阵将n×1向量映射成该矩阵组成的Rm子空间H上的某个m×1向量,这种操作叫作线性变换。比如Ax=y就是m×n矩阵A将n×1向量x变换成m×1向量y。
线性变换在几何上可以表示为某点的运动结果,比如对于点x=(2,5)来说,矩阵A=(3001)对其的线性变换Ax=(3001)(25)=(65)就是将点x移动到位置(6,5)。
线性变换支持向量的加法和标乘运算规则。线性变换的矩阵A满足单射等价于A是没有自由变量的,满射等价于A对Rm的每个向量都有解。
对于变换矩阵A为方阵的线性变换来说,有某些非零向量在经过线性变换后,其方向不会改变,只会改变其长度。这些向量也就是变换矩阵的特征向量,对应的长度伸缩比也就是变换矩阵的特征值,也就是Av=λv(其中v为向量,λ为向量v对应的长度伸缩比)。
一般来说,矩阵A的特征值可能有多个,每个特征值对应的特征向量也可能有多个,对于矩阵A的特征值的求解,一般是让矩阵A对应的特征空间(A−λ)x=0有非平凡解,也就是让该方程有自由变量,所以矩阵(A−λ)的行列式必须为0,且该矩阵不可逆。所以我们通常是求detA=0的解(这也就是求特征方程的解)从而求出矩阵A的各个特征值,并求出各个特征值对应的特征向量。
同一矩阵的不同特征值之间的特征向量是线性无关的,同一特征值的不同特征向量之间可能是线性无关的。
之前谈到的特征值都是实特征值,也就是实数特征值,它们在几何上表示的是对特征向量长度的伸缩比;还有一种是复数特征值,简称复特征值,由实部和虚部组成,实部在几何上表示的是对特征向量长度的伸缩比,而虚部在几何上表示的是对特征向量角度的旋转。
有些矩阵的特征值是一样的,这也就反映了这些矩阵对某些向量的线性变换有着一样的伸缩变化,这些矩阵之间相互相似,也就是如果矩阵A和B相似,则存在可逆矩阵P,使得B=P−1AP,A=PBP−1
通过观察计算,我们可以发现三角矩阵和对角矩阵的特征值就是他们主对角线上的各个元素,如果一个矩阵相似于一个对角矩阵,则可以直接求出该矩阵的特征值了。不过不是所有的矩阵都有相似的对角矩阵,对于n×n矩阵A,只有存在n个线性无关的特征向量,才能够进行对角化,也就是说A要么有n个不同的特征值,要么相同特征值对应的线性无关特征向量数量等于该特征值的重数。
将n×n矩阵A转化为对应的对角矩阵的操作叫做对角化,也就是A=P−1DP,其中P是可逆矩阵,D是对角矩阵。根据矩阵求特征值的方法,我们可以推导出,可逆矩阵P的列是矩阵A的n个线性无关特征向量,D的对角线元素是其对应特征向量的特征值,P和D之间的值一一对应,这样就完成了矩阵A的对角化。
矩阵的对角化有许多用途,其中最主要的用途还是用于二次型方面,对于对称矩阵A来说,A的不同特征值之间的特征向量是正交的,所以我们将A进行对角化A=P−1DP时,可以使可逆矩阵P变为正交矩阵,这种对角化A=P−1DP=PTDP也就叫做正交对角化。
而对称矩阵是用来表示二次型的,Rn上的二次型也就是一个定义在Rn上的n元二次函数,它在向量x处的值可以用表达式Q(x)=xTAx来计算,其中A是n×n对称矩阵。
二次型的各个项的系数可以由对应的对称矩阵看出,其中矩阵主对角线上是二次型的二次项系数,其他的是其他项的系数的一半,比如二次型为Q(x)=xT⎝⎛6212−5−31−39⎠⎞x,则该二次型可以用多项式表达为Q(x)=6x12−5x22+9x32+4x1x2+2x1x3−6x2x3
对于二次型Q(x)=xTAx来说,如果能够做一种变量代换,将式子中的所有非二次项的项的系数全化为0,则计算值将会方便的多,所以可以考虑变量代换x=Py或y=P−1x,其中P是一个可逆矩阵,y是变换后的向量,使得Q(x)=xTAx=yTDy,从而将Q(x)的所有非二次项的项的系数全化为了0。这也就是对A进行对角化,而A是对称矩阵,所以经过计算变换可以得知,要使变量代换成功,则可逆矩阵P必须为由对称矩阵A的特征向量组成的正交矩阵,此时Q(x)=xTAx=yT(PTAP)y=yTDy。
所以使用变量代换x=Py或y=P−1x,可以使得Q(x)=xTAx=yT(PTAP)y=yTDy,其中P为由对称矩阵A的特征向量组成的正交矩阵,变换后的二次型叫做标准型。
二次型Q(x)的性质:
- 正定型:对于所有的x=0,都有Q(x)>0,也就是Q(x)对应的矩阵的特征值都是正值。
- 负定型:对于所有的x=0,都有Q(x)<0,也就是Q(x)对应的矩阵的特征值都是负值。
- 不定型:对于所有的x=0,Q(x)有正有负,也就是Q(x)对应的矩阵的特征值有正有负。



- 对称变换
- 关于x轴对称:(100−1)
- 关于y轴对称:(−1001)
- 关于直线y=x对称:(0110)
- 关于直线y=−x对称:(0−1−10)
- 关于原点对称:(−100−1)
- 伸缩变换(其中k为伸缩系数)
- 水平伸缩:(k001)
- 垂直伸缩:(100k)
- 剪切变换(其中k为剪切系数)
- 水平剪切:(10k1)
- 垂直剪切:(1k01)
- 投影变换
- 投影到x轴上:(1000)
- 投影到y轴上:(0001)
差分方程类型的题就是给出一个差分方程xn+1=Axn和初值x0,求出该差分方程的通项公式,其中xj(0<=j)为向量,A为可对角化的矩阵。
我们可以通过差分方程看出xn=Anx0,所以对于这类的题,我们要利用特征值的相关性质,将A用特征值来代替。
A可以对角化,所以A有n个线性无关的特征向量{v1,v2,v3,⋯,vn},这些特征向量也是在A所组成的子空间H上,所以对于H上的初始向量x0,可以用这些特征向量组成的基来线性组合表示该向量,也就是x0=c1v1+c2v2+c3v3+⋯+cnvn,其中c1,c2,c3,⋯,cn为系数。
然后根据差分方程和Av=λv,可得x2=A2x0=A(c1Av1+c2Av2+c3Av3+⋯+cnAvn)=c1λ1Av1+c2λ2Av2+c3λ3Av3+⋯+cnλnAvn=c1λ12v1+c2λ22v2+c3λ32v3+⋯+cnλn2vn
由此可得xk=c1λ1kv1+c2λ2kv2+c3λ3kv3+⋯+cnλnkvn (k=0,1,2,⋯)
所以对于这类题的解题步骤为:
- 找出初值,并列出差分方程xn+1=Axn。
- 对矩阵A求出所有特征值以及对应的线性无关特征向量。
- 利用式子x0=cv=c1v1+c2v2+c3v3+⋯+cnvn求出系数向量c,其中c为系数向量,v为由特征向量组成的基。
- 将求出的系数向量c的值代入公式xk=c1λ1kv1+c2λ2kv2+c3λ3kv3+⋯+cnλnkvn (k=0,1,2,⋯),至此已求出通项公式。











最小二乘问题也就是求方程近似解的问题,当方程组Ax=y无解时,证明了向量y不在A组成的子空间H上,我们就可以将向量y投影到子空间中,此时用向量y的投影y^代替向量y来求方程组Ax=y^,从而得出的解就是方程组Ax=y的近似解。
可以证明该近似解是离Ax=y的解最近的解,其中解的误差为ϵ=dist(y−y^)。
我们还可以直接使用公式ATAx=ATy来求出近似解,因为该公式求出的解集与Ax=y^的相同。
最小二乘问题最广泛的应用是回归分析,回归分析也就是给出一组数据点,根据这些数据点来判断和计算与其近似拟合的直线或曲线,这些直线或曲线就叫做回归直线或回归曲线。




















